Важно определить, какие технические показатели качества связи сильнее всего влияют на удовлетворённость клиентов, и в первую очередь направить ресурсы на работу с ними.

user_id — идентификатор абонента;

Q1 — ответ на первый вопрос В ходе опроса компания «Мегафон» предложила своим клиентам оценить уровень удовлетворённости качеством связи по десятибалльной шкале (где 10 — это «отлично», а 1 — «ужасно»). Если клиент оценивал качество связи на 9 или 10 баллов, опрос заканчивался;

Q2 - ответ на второй вопрос ; Если клиент ставил оценку ниже 9, задавался второй вопрос — о причинах неудовлетворённости качеством связи с предоставленными пронумерованными вариантами ответа. Ответ можно было дать в свободном формате или перечислить номера ответов через запятую:

  1. Недозвоны, обрывы при звонках
  2. Время ожидания гудков при звонке
  3. Плохое качество связи в зданиях, тц и т.д.
  4. Медленный мобильный интернет
  5. Медленная загрузка видео
  6. Затрудняюсь ответить
  7. Свой вариант

Total Traffic(MB) — объем трафика передачи данных, насколько активно абонент использует мобильный интернет;

Downlink Throughput(Kbps) — средняя скорость «к абоненту», считается по всему трафику передачи данных;

Uplink Throughput(Kbps)— средняя скорость «от абонента», считается по всему трафику передачи данных;

Downlink TCP Retransmission Rate(%) — частота переотправок пакетов «к абоненту», чем выше, тем хуже. Если в канале возникает ошибка, пакет переотправляется. Снижается полезная скорость;

Video Streaming Download Throughput(Kbps) — скорость загрузки потокового видео, чем выше, тем лучше — меньше прерываний и лучше качество картинки;

Video Streaming xKB Start Delay(ms) — задержка старта воспроизведения видео, cколько времени пройдёт между нажатием на кнопку Play и началом воспроизведения видео. Чем меньше это время, тем быстрее начинается воспроизведение;

Web Page Download Throughput(Kbps) — скорость загрузки web-страниц через браузер, чем выше, тем лучше;

Web Average TCP RTT(ms) — пинг при просмотре web-страниц, чем меньше, тем лучше — быстрее загружаются web-страницы.

Первый технический показатель представлен как сумма за период в одну неделю перед участием в опросе. Остальные технические показатели отображают среднее значение по данному признаку за период в одну неделю перед участием в опросе.

Предобработка данных

Работа с переменной Q1 - ответ на первый вопрос, возможные значения 1-10

Разделим абонентов на группы и создадим метки группы для всех абонентов - A: оценка (9-10), B: оценка (5-8), C: оценка (1-4)

Построение доверительных интервалов для оценки долей пользователей, которые полностью довольны качеством связи (группа A), и для пользователей, которые неудовлетворёны качеством связи (группы В и С)

Оценка данного показателя позволяет оценить общую картину удовлетворенности услугами компании "Мегафон" с целью дальнейшего анализа конкретных групп и показателей

Расчет доверительного интервала для доли пользователей полностью удовлетворенными качеством связи (Ответ 9,10 на первый вопрос) генеральной совокупности пользователей компании 'Мегафон'

Расчет доверительного интервала для доли пользователей неудовлетворенными качеством связи (Ответ 1-8 на первый вопрос) генеральной совокупности пользователей компании 'Мегафон'

С вероятностью в 95% доля пользователей полностью удовлетворенными качеством связи компании 'Мегафон' лежит в промежутке (0.3375; 0.3714), доля пользоваталей неудовлетворенными качеством связи лежит в промежутке (0.6286; 0.6625)

Можем сделать вывод, что примерно 2/3 пользователей имеют некоторые проблемы со связью, следовательно нужно подробнее разбирать группы пользователей B и C

Построение доверительного интервала для оценки доли пользователей, которые указали на проблемы по связью (ответы: 1,2,3; на второй вопрос), относительно всех пользователей

Рассмотрение данного показателя в первую очередь важно, т.к. компания специализуруется на услугах голосовой связи и большинство пользователей указали на проблему именно с данной составляющей бизнеса

С вероятностью в 95% доля пользователей, которые указали на проблемы по связью (ответы: 1,2,3; на второй вопрос), относительно всех пользователей компании 'Мегафон' лежит в промежутке (0.3194, 0.3529])

Устранение выбросов в числовых признаках

Следуя эвристики, что выбросы находятся за пределами следующих интервалов: Q1–1.5 x IQR и Q3 + 1.5 x IQR, преобразуем данные.

Q1 - Первый квартиль, равен 25-ому процентилю;

Q3 - Третий квартиль, равен 75-ому процентилю;

IQR - число, которое показывает разброс средней половины (т.е. средние 50%) набора данных и помогает определить выбросы, разница между Q3 и Q1;

Работа с переменной Q2 - ответ на первый вопрос, возможные значения 1-7, или несколько ответов

Рассмотрим данные для минимальных и максимальных показателей каждого признака с соответствующими значениями других признаков

Рассмотрим меры центральной тенденции - среднее и медиану для групп пользователей разделенных по ответу на первый вопрос:

Группы - A: оценка (9-10), B: оценка (5-8), C: оценка (1-4)

Показатели: Total Traffic(MB) - из опрошенных мобильный интернет активнее всего используется пользователями группы 'B';

Downlink Throughput(Kbps),Uplink Throughput(Kbps), Video Streaming Download Throughput(Kbps), Web Page Download Throughput(Kbps) - наибольшие показатели скорости загрузки у пользователей группы 'A', наименьшие у группы 'C';

Downlink TCP Retransmission Rate(%)(частота переотправок пакетов «к абоненту»),Video Streaming xKB Start Delay(ms)(задержка старта воспроизведения видео),Web Average TCP RTT(ms)(пинг при просмотре web-страниц) - наименьшие (наилучшие) показатели у пользователей группы 'A', наибольшие (наихудшие) - у группы 'C';

В целом, основываясь на рассмотренных выборках, имеется предположение, что разница в показателях пользователей группы 'A' и группы 'B' различаются меньше, чем разница в показателях группы 'B' и 'C'.

Рассмотрим меры центральной тенденции - среднее и медиану для групп пользователей разделенных по ответу на второй вопрос:

1.Недозвоны, обрывы при звонках
2.Время ожидания гудков при звонке
3.Плохое качество связи в зданиях, тц и т.д.
4.Медленный мобильный интернет
5.Медленная загрузка видео
6.Затрудняюсь ответить
7.Свой вариант

На первый взгляд - видимых различий не наблюдается, более детальные различия и гипотезы между данными группами далее будут проверены в ходе исследования

Тесты по качеству голосовой связи фиксируют следующие параметры:

Параметры, выделенные жирным шрифтом, имеются в представленных данных, следуют обратить на них внимание при исследованиее пользователей имеющих проблемы со связью (1.Недозвоны, обрывы при звонках; 2.Время ожидания гудков при звонке; 3.Плохое качество связи в зданиях, тц и т.д.)

Проверяем гипотезу относительно разницы средних показателей Downlink Throughput(Kbps)(средняя скорость «к абоненту»),Downlink TCP Retransmission Rate(%) (частота переотправок пакетов «к абоненту», чем выше, тем хуже.) между группами пользоваталей A и B

Группа A - пользователи, ответившие на второй вопрос (Q2) - 1,2,3: 1. Недозвоны, обрывы при звонках; 2. Время ожидания гудков при звонке; 3. Плохое качество связи в зданиях, тц и т.д Группа B - пользователи, ответившие на первый вопрос (Q1) - 9, 10 (отличное качество связи)

Берем наши выборки, делаем по каждой из них бутстреп и проверяем с помощью построения доверительных интервалов, пересекаются ли они, а также генерируем распределние разницы средних.

В виду того, что показатель Downlink Throughput(Kbps) — средняя скорость «к абоненту», считается по всему трафику передачи данных, т.е. основной трафик потребляет просмотр web-страниц и загрузка видео, также мы можем заметить, что рассматриваемое среднее выше в группе A, поэтому будем рассматривать показатель среднего Downlink TCP Retransmission Rate(%) — частота переотправок пакетов «к абоненту».

Рассматривается нулевая гипотеза о равенстве рассматриваемых средних Генеральных совокупностей Альтернативная гипотеза - рассматриваемые средние не равны (Предполагается что среднее группы B < среднее группы A, т.к. больше - хуже)

P-value = 0 -> меньше чем любой разумный уровень значимости -> нулевая гипотеза о равенстве средних отклоняется -> Разница есть

На основании произведенных расчетов и тестов можем сделать вывод, что показатель Downlink TCP Retransmission Rate(%) — частота переотправок пакетов «к абоненту», статистически различается (значимо больше у пользователей рассматриваемой группы A (Q2-1,2,3) ГС, чем у пользоваталей, довольных качеством).

Проверяем гипотезу относительно разницы средних показателя Downlink Throughput(Kbps)(средняя скорость «к абоненту») между группами пользоваталей A и B

Группа A - пользователи, ответившие на второй вопрос (Q2) - 3: Плохое качество связи в зданиях, тц и т.д.; Группа B - пользователи, ответившие на второй вопрос (Q2) - 4:Медленный мобильный интернет

Берем наши выборки, делаем по каждой из них бутстреп и проверяем с помощью построения доверительных интервалов, пересекаются ли они, а также генерируем распределние разницы средних.

Рассматривается нулевая гипотеза о равенстве рассматриваемых средних Генеральных совокупностей Альтернативная гипотеза - рассматриваемые средние не равны

Полученное P-value больше чем P-value = 0.05 при заданном уровне значимости -> нет оснований отклонить нулевую гипотезу о равенстве средних

На основании произведенных расчетов и тестов можем сделать вывод, что показатель Downlink Throughput(Kbps)(средняя скорость «к абоненту»), статистически не различается у ГС пользователей ответивших на второй вопрос (Q2) - 3: Плохое качество связи в зданиях, тц и т.д. и пользователей, ответивших на второй вопрос (Q2) - 4: Медленный мобильный интернет

Следовательно, следует сравнить данный показатель между разными категориями пользователей - ответивших на вопрос Q2: 3,4 и пользователями ответивших на Q1: 9,10

Проверяем гипотезу относительно разницы средних показателя Downlink Throughput(Kbps)(средняя скорость «к абоненту») между группами пользоваталей A и B

Группа A - пользователи, ответившие на второй вопрос (Q2) - 3: Плохое качество связи в зданиях, тц и т.д.; Группа B - пользователи, ответившие на второй вопрос (Q2) - 4:Медленный мобильный интернет

Берем наши выборки, делаем по каждой из них бутстреп и проверяем долю случаев когда центрированная разница между средними больше изначально заданной, а также генерируем распределние разницы средних.

Полученное P-value значимо меньше чем P-value = 0.05 при заданном уровне значимости -> нулевая гипотеза о равенстве средних отклоняется -> Разница есть

Также учитывая общую долю случаев, когда среднее группы B больше группы A (проверка доверительных интервалов), можем сделать вывод, что среднее ГС данной группы пользователей значимо больше

На основании произведенных расчетов и тестов можем сделать вывод, что показатель Downlink Throughput(Kbps)(средняя скорость «к абоненту»), статистически различается у ГС пользователей ответивших на второй вопрос (Q2) - 3,4 (3: Плохое качество связи в зданиях, тц и т.д. 4: Медленный мобильный интернет) и пользователей, ответивших на первый вопрос (Q1) - 9,10

Так как данный показатель, не отличается внутри групп пользователей ответивших на Q2 - 3 и 4, но статистически различается также между вышеуказанной обобщенной группой и пользователями, полностью довольными качеством связи (у пользователей данной группы значимо выше), можем сделать вывод, что данный показател влияет на удовлетворённость клиентов и ресурсы на работу с ним направить нужно.

Рассмотрим показатели скорости загрузки потокового видео и задержки старта воспроизведения для пользователей с медленной загрузкой видео

Непараметрические критерии используются для следующих переменных:

- для количественных переменных, распределение которых не подчиняется нормальному закону распределения;

Непараметрические критерии могут применяться и в случае нормального распределения. В этом случае они будут иметь только 95%-ую эффективность по сравнению с параметрическими тестами.

Существует большое количество непараметрических тестов, которые можно разделить на три группы:

- критерии для независимых выборок (U критерий Манна-Уитни (при сумме размеров выборок >60 U-статистика аппроксимируется нормальным распределением), критерий Колмогорова-Смирнова для двух выборок, критерий Вальда-Вольфовица, критерий Мозеса, непараметрический дисперсионный анализ Крускала-Уоллиса, медианный критерий, критерий Джонкхира-Терпстры и др.)